1.2 Objetivos específicos
Para lograr el objetivo general planteado, establecemos una serie de objetivos específicos que facilitarán su consecución. Iniciamos con un objetivo teórico centrado en el conocimiento profundo del dominio en cuestión. Abordar el tratamiento computacional de una lengua natural como la LSE sin un entendimiento sólido de sus particularidades sería imprudente y podría conducirnos a errores significativos. Este aspecto se torna aún más crucial dado que la LSE carece de la abundancia de recursos e información que suelen estar disponibles para otras lenguas orales.
El objetivo teórico descubre el principal obstáculo para la consecución de nuestro objetivo general, que radica en la representación adecuada de la LSE. Este desafío nos lleva a formular objetivos técnicos con el fin de superar tal obstáculo. Estos objetivos técnicos abarcan esfuerzos de diversa índole enmarcados en la informática, desde la recolección y el procesamiento de datos, su tratamiento algorítmico mediante técnicas avanzadas de Inteligencia Artificial, hasta el desarrollo de software específico.
Finalmente, se incorpora un objetivo complementario que orienta nuestra metodología de trabajo. Este objetivo consiste en publicar todos los datos recabados, el conocimiento generado y los desarrollos de software en formatos de acceso abierto, con el fin de fomentar una mayor difusión de la información y permitir la reproducibilidad de nuestros resultados.
1.2.1 Objetivo teórico
En el caso de las Lenguas de Signos, sus características intrínsecas, que las diferencian notablemente de las lenguas orales, suponen que no se pueda realizar una aplicabilidad directa de las técnicas empleadas para las lenguas orales. Las limitaciones de datos y la singularidad de su estructura gramatical y sintáctica exigen que los investigadores adopten un enfoque adaptado específicamente para su tratamiento computacional. Para que las investigaciones realizadas sean efectivas y útiles realmente en el contexto de la LSE, un objetivo preliminar y fundamental de mi investigación doctoral es adquirir una sólida base de conocimiento científico-técnico en relación con la LSE.
Esto incluye no sólo un análisis teórico y bibliográfico de la estructura y grámatica de la lengua de signos, sino también el estudio de la LSE en sí. Para poder tratar con éxito una lengua, sus peculiaridades y características únicas, es fundamental, en mi opinión, comprenderla y poder articularla.
En el proceso de explorar la LSE y evaluar el estado actual de su tratamiento computacional, identificamos que uno de los desafíos más imponentes es la cuestión de su representación (Miller 2001). A diferencia de las lenguas orales occidentales, que generalmente comparten un sistema de escritura basado en el alfabeto latino, las lenguas de signos carecen de un sistema de escritura estándar y universalmente aceptado. Esto contrasta con idiomas como el ruso, árabe o japonés, donde uno de los primeros pasos para el aprendiz es familiarizarse con un sistema de escritura específico.
Para las LS, sin embargo, la ausencia de un sistema de escritura estandarizado y ampliamente reconocido constituye un obstáculo notorio en la pedagogía y el aprendizaje. Frecuentemente, los estudiantes optan por desarrollar sus propios sistemas idiosincrásicos de notación o, en su defecto, prescinden de cualquier registro escrito, abordando el aprendizaje del idioma desde una perspectiva exclusivamente oral-visual.
La ausencia de un sistema de escritura formalizado para las LS presenta una complejidad adicional para los enfoques de Lingüística Computacional (LC) y Procesamiento del Lenguaje Natural (PLN). En estos campos, la representación textual es primordial para la modelización y el análisis. Por ende, se genera una necesidad imperante de desarrollar o adaptar sistemas de representación lingüística que sean coherentes y eficaces para la transcripción y el procesamiento computacional de la LSE. Sin una representación adecuada, los esfuerzos en LC y PLN quedan considerablemente obstaculizados, limitando las posibilidades de avance tanto en la teoría como en la aplicación práctica de tecnologías relacionadas con la lengua de signos.
Afortunadamente, sí que existen distintos sistemas de escritura para la LS, aunque no sean estándar ni muy extendidos. Entre ellos, se encuentra la SignoEscritura, inventado en norteamérica por Valerie Sutton para la Lengua de Signos Americana (Sutton 1995). La SignoEscritura es especialmente relevante para nosotros ya que se utiliza en el Centro de Idiomas Complutense por las profesoras de LSE como apoyo lingüístico, si bien no se enseña en sí en su total complejidad. La SignoEscritura constituye una representación abstracta pero visual de las LS, y utiliza iconografía específica para representar las manos y el cuerpo. Estas representaciones se disponen en un plano bidimensional para capturar el espacio y movimiento de la lengua de signos. Aunque de origen estadounidense, es un sistema fonético y, por lo tanto, adaptable a cualquier lengua de signos, lo que lo convierte en un candidato óptimo para su uso como representación, tanto desde una perspectiva científica como ingenieril, de las LS.
1.2.2 Objetivos técnicos
No obstante, la SignoEscritura presenta un desafío crucial: su naturaleza gráfica. A diferencia de las escrituras de lenguas orales, que son esencialmente secuencias lineales de símbolos individuales, la disposición de los símbolos en la SignoEscritura es bidimensional y gráfica. Esta característica plantea una problemática específica en su implementación y uso en entornos digitales. Esto da lugar al objetivo técnico de esta tesis: desarrollar métodos para el procesamiento computacional efectivo de la SignoEscritura.
Este objetivo a su vez se desglosa en una serie de sub-objetivos interrelacionados que deben alcanzarse con éxito. En primer lugar, se plantea la necesidad de recopilar una muestra significativa de ejemplos de SignoEscritura (sub-objetivo técnico 1). Este paso es fundamental para disponer de datos empíricos auténticos sobre los cuales basar los avances y para poder llevar a cabo una evaluación concreta de las implementaciones realizadas. Paralelamente, se requiere investigar en el campo de la inteligencia artificial, en concreto en la visión artificial, para poder desarrollar algoritmos de IA capaces de reconocer y comprender la SignoEscritura (sub-objetivo técnico 2). Por último, resulta esencial plasmar estos algoritmos y métodos en forma de software (sub-objetivo técnico 3), con el fin de poder evaluarlos objetivamente utilizando los datos reunidos, al mismo tiempo que se garantiza que la funcionalidad resultante esté disponible para otros programas o para los usuarios finales.
Estos objetivos técnicos convergieron en un proyecto financiado en convocatoria competitiva a nivel nacional, y que se describe en detalle en el capítulo 3. Este proyecto, titulado “Visualizando la SignoEscritura” (VisSE) desempeña un papel central en la integración de la tesis, al proporcionar un marco unificador para los diversos objetivos planteados.
1.2.3 Objetivo complementario
Uno de los pilares fundamentales de la ciencia reside en la puesta en común del conocimiento y de los métodos empleados para adquirirlo. Esta práctica no solo permite el escrutinio y la validación del trabajo científico por parte de la comunidad, sino que también facilita la colaboración y la construcción colectiva de un corpus de sabiduría científica. Sin embargo, el ritmo acelerado y la complejidad creciente de la ciencia moderna han generado obstáculos para una compartición efectiva.
En el ámbito de la IA, la generación de algoritmos, scripts y grandes conjuntos de datos es constante. Afortunadamente, además, en la actualidad existe un fuerte movimiento hacia la ciencia abierta. No obstante, la mera compartición de datos y scripts suele ser insuficiente para replicar o extender investigaciones previas. Los entornos de investigación varían, y a menudo faltan detalles sobre configuraciones específicas, versiones de software, o incluso métodos de preprocesamiento de datos, lo que hace que la reproducibilidad sea una tarea ardua.
En este contexto, me planteo un objetivo complementario a la investigación desarrollada en mi tesis. Mi meta no es solo publicar el máximo número posible de datos y software creados durante mi investigación, sino hacerlo de una forma que permita su fácil replicabilidad y extensión. Esto incluye el uso de software libre, el uso de prácticas modernas en la compartición de recursos científicos, la creación de documentación exhaustiva y detallada, y la estructuración cuidadosa de los datos.
Además, propongo no sólo utilizar scripts ad-hoc, sino crear software distribuible y modular, que pueda ser útil para terceros y que encapsule los resultados teóricos y técnicos obtenidos en la investigación. Este software, acorde con los principios de la cienca abierta, será publicado bajo licencias de software libre.
Este enfoque no solo aumenta la transparencia y robustez de mi propio trabajo, sino que también facilita el avance del campo en general y la construcción de futuras investigaciones basándose en él.